//package com.tte.common.tika;
//
//
//import java.io.File;
//import java.io.FileInputStream;
//
///**
// * @Description: https://blog.csdn.net/zdx1515888659/article/details/112987043
// * @Author: DongWH
// * @Date: 2023/4/24 15:04
// */
//public class TiKaTest {
//
//    /**
//     * Tika文件类型检测
//     * @return
//     */
//    public static String getFileType() {
//        try {
//            File file = new File("C:\\Users\\TTE\\Desktop\\test.pdf");
//            Tika tika = new Tika();
//            String fileType = tika.detect(file);
//            if (fileType != null && fileType.contains("/")) {
//                fileType = fileType.substring(fileType.indexOf("/") + 1);
//            }
//            return fileType;
//        } catch (Exception e) {
//            e.printStackTrace();
//        }
//        return "";
//    }
//
//    /**
//     * Tika内容提取
//     * @return
//     */
//    public static String getContext() {
//        try {
//            File file = new File("C:\\Users\\TTE\\Desktop\\testbase64.txt");
//            Tika tika = new Tika();
//            String filecontent = tika.parseToString(file);
//            System.out.println("Extracted Content: " + filecontent);
//            return filecontent;
//        } catch (Exception e) {
//            e.printStackTrace();
//        }
//        return "";
//    }
//
//    /**
//     * Tika元数据提取
//     */
//    public static String parsePdf() {
//        try {
//            BodyContentHandler handler = new BodyContentHandler();
//            WSEndpointReference.Metadata metadata = new Metadata();
//            FileInputStream inputstream = new FileInputStream(new File("C:\\Users\\TTE\\Desktop\\test.pdf"));
//            ParseContext pcontext = new ParseContext();
//            //parsing the document using PDF parser
//            PDFParser pdfparser = new PDFParser();
//            pdfparser.parse(inputstream, handler, metadata, pcontext);
//            //getting the content of the document
//            System.out.println("Contents of the PDF :" + handler.toString());
//            // 元数据提取
//            System.out.println("Metadata of the PDF:");
//            String[] metadataNames = metadata.names();
//            for (String name : metadataNames) {
//                System.out.println(name + " : " + metadata.get(name));
//            }
//        } catch (Exception e) {
//            e.printStackTrace();
//        }
//        return "";
//    }
//
//    /**
//     * Tika语言检测
//     * @return
//     */
//    public static String LanguageDetection() {
//        try {
//            Parser parser = new AutoDetectParser();
//            BodyContentHandler handler = new BodyContentHandler();
//            Metadata metadata = new Metadata();
//            FileInputStream content = new FileInputStream(new File("C:\\Users\\TTE\\Desktop\\test.pdf"));
//            //Parsing the given document
//            parser.parse(content, handler, metadata, new ParseContext());
//            LanguageIdentifier object = new LanguageIdentifier(handler.toString());
//            System.out.println("Language name :" + object.getLanguage());
//            return object.getLanguage();
//        } catch (Exception e) {
//            e.printStackTrace();
//        }
//        return "";
//    }
//
//    /**
//     * Tika提取pdf文件
//     * Tika-1.*最高支持2007及更低版本的Office Word文档，如果是高于2007版本的Word文档需要使用POI处理（Tika会报错）
//     * @return
//     */
//    public static String parsePdf() {
//        try {
//            BodyContentHandler handler = new BodyContentHandler();
//            Metadata metadata = new Metadata();
//            FileInputStream inputstream = new FileInputStream(new File("C:\\Users\\TTE\\Desktop\\test.pdf"));
//            ParseContext pcontext = new ParseContext();
//            //parsing the document using PDF parser
//            PDFParser pdfparser = new PDFParser();
//            pdfparser.parse(inputstream, handler, metadata, pcontext);
//            //getting the content of the document
//            System.out.println("Contents of the PDF :" + handler.toString());
//            // 元数据提取
//            System.out.println("Metadata of the PDF:");
//            String[] metadataNames = metadata.names();
//            for (String name : metadataNames) {
//                System.out.println(name + " : " + metadata.get(name));
//            }
//        } catch (Exception e) {
//            e.printStackTrace();
//        }
//        return "";
//    }
//
//    /**
//     * Tika提取文本文档
//     * @return
//     */
//    public static String parseTxt() {
//
//        try {
//            BodyContentHandler handler = new BodyContentHandler();
//            Metadata metadata = new Metadata();
//            FileInputStream inputstream = new FileInputStream(new File("C:\\Users\\TTE\\Desktop\\testbase64.txt"));
//            ParseContext pcontext = new ParseContext();
//            //Text document parser
//            TXTParser TexTParser = new TXTParser();
//            TexTParser.parse(inputstream, handler, metadata, pcontext);
//            System.out.println("Contents of the document:" + handler.toString());
//            return handler.toString();
//        } catch (Exception e) {
//            e.printStackTrace();
//        }
//        return "";
//    }
//
//}
